文|王沁 邱晓芬
编辑|苏建勋 邱晓芬
封面来源|视觉中国
今年5月,北京中关村一栋大楼里,机器人行业泰斗王田苗创立的智友研究院的会议上,机器人创业者们的一项重要议题便是——如何招人。
论坛上,一位创业者向众人展示自己的手机页面,“我在猎聘上看了4000多份简历,每个人我都认真回复,我应该是猎聘上最活跃的boss!”在机器人界,北航机器人所名誉所长王田苗,不仅是一位学术泰斗,更是带领一群年轻人把校园科创项目做到上市公司的创业导师。在他投资的超过70个项目中,赫赫有名的有九号机器人、国内手术机器人第一股天智航、工业机器人埃夫特等等。“即便目前一些具身智能的创业公司估值已经达到了20亿、50亿、甚至100亿,这更多反映了资本市场的乐观预期,可能存在泡沫”,他顿了顿,“但真正的价值创造才刚刚开始,特别是当硬件的迭代周期还跟不上软件或大脑的进化速度时,我们看到了具身智能的机会所在。”从2023年中至今,具身智能火了,热钱的涌入,在2024年一片萧条的市场中显得格外耀眼。据IT桔子统计,2023年中国一级市场机器人行业融资金额达240亿元,其中十亿元量级以上的投资事件数量在4起左右。最“疯狂”的一家,当属华为天才少年“稚晖君”辞职后创立的「智元机器人」——最近一年的时间,这家炙手可热的公司融了6轮,资方名单包括红杉中国、上汽投资等。成立不过短短一年多,「智元机器人」估值已经飙已经升至70亿元。“(我们)不接受比较拖拉的(投资),谁的效率高、速度快,我们优先要谁的钱”,一家具身机器人公司CEO告诉《智能涌现》,近来找他的投资人都大排队。一位通用机器人公司的联创调研了一圈市场后惊讶发现——最近半年时间,国内冒出了小一百家机器人公司,甚至很多非机器人背景的人也挤上牌桌。据Markets and Markets预测,2023年全球具身智能市场规模为18亿美元,预计2028年将达到138亿美元。巨头公司们也通过投资押注:Open AI押注了国外炙手可热的具身智能公司1X Technologies、Figure AI,前者背后站着三星,后者则拿了英伟达、微软、英特尔、亚马逊等赫赫有名的大公司投资。“具身智能”(Embodied Intelligence)的概念不是新鲜事,早在2005年就在学术界提出,但由于当时实现起来相当困难,一直没有出圈,只是科幻电影里人类浮夸的想象。直到AI大模型出世,大家才意识到,具身智能原来真的能走进现实。具身智能的理论认为,智能体是通过视觉、听觉、触觉等各种感官与现实物理世界的不断交互,来反馈到脑,生成智慧与思维能力的。打个比方,你要变得智慧,就不仅要输入符号性的知识、读万卷书,还要到真实世界里去看、去听、去真感受、去行万里路。AI大模型的突破,完成了具身智能的“智能”(intelligence),以前遥不可及的目标如今走了近半,就差“具身”(embodiment)了——一具能看、能听、能行动的身体。已经投入到亚马逊仓库里搬箱子的Aglitiy机器人,在演示中不仅能自行拆解如何做饭,还能理解人类的流行文化梗语(例如星球大战中黑暗尊主达斯·维达之剑),还能学会在从未训练走过的路面走路。△Agility机器人能理解“达斯·维达”光剑颜色的盒子指红色盒子并识别拿起,图片来源:Agility Robotics显然,过去传统专项机器人(机械臂、扫地机器人、无人搬运车等)的叙事,早已无法满足人们的想象。由人类一手构建出来的社会,本就是为人类身体设计的:手机的尺寸、电脑的大小、桌椅的高度、门把手的高度等等,都以人类身体为丈量。当一具像人身体的机器人有了大模型大脑的加持,机器人便可以真正代替人类,在多种场景下做各种事情,科幻电影走向现实。人形,才是人类对于机器人的终极想象。2、具身智能赛道的玩家有哪些?谁是理想派和现实派?他们如何形成分野?3、具身智能距离商业化落地还有多远?如何寻找PMF?(Product Market Fit,产品市场匹配度)AI大模型出世,具身智能有“脑”了
一台人形机器人,可以粗略分为三个关键部分:大脑(AI大模型)、小脑(运动控制)、硬件身体。如果把人形机器人与人类做类比——机器人大脑(AI大模型),意味着机器人理解人类社会的规则,进而与人类进行自然语言对话交互,做出顶层行为决策;机器人小脑,控制机器人的运动流畅性、身体感知与平衡(比如摔倒后能自行站起来)。可以用一个比喻来理解机器人大脑:它有点像钢铁侠里面的Jarvis,可以帮助你理解外部的环境信息,给机器人发相关的相应的命令。当然,机器人大脑并不是我们理解中,有沟壑、有皮质层的人类大脑形状,它是一个存在形态多样的“算力盒子”。比如,当Jarvis存在于它的盔甲里时,它就是一个人形机器人;但当钢铁侠脱了人形盔甲,它也可能变为一个机械臂或物流车,帮你在工作台作业或搬东西。当然,通用AI大模型并不能和机器人大脑直接划等号。通用大模型还要经过进一步的“加工”(训练和微调),才能成为一个合格的机器人大脑。机器人大脑理解了人类给出的任务后,要进行任务分解与规划,还要“编译”成动作指令,这样机器人大脑输出的信息,才能直接转化成小脑运动控制系统能理解的指令代码。也就是说,机器人大脑输出的不仅是文字、语音、视频,而是一项项能让机器人真正动起来的动作指令。在过去,没有“大脑”的传统机器人只会按图索骥,按照人类简单的指令去执行简单的任务(如将物体从定点A移到定点B),但有了大模型后,机器人变得有脑子了,也更聪明了。比如,当有人告诉装有大脑的机器人,“给我炒盘菜”,机器人能把“炒菜”的任务,自动理解规划成到冰箱拿菜、到厨房切菜、用锅炒,并执行动作。△谷歌的机器人基础大模型PaLME装到机器人上后,机器人知道如何从抽屉里拿米片给人类,图片来源:palm-e.github.io
不过,大模型对于人形机器人的助推,不仅仅简单停留在机器人大脑层面。聪明的机器人行业从业者们还打开了新的思路——具身机器人是否可以通过大量投喂人类运动数据,让机器人小脑也能模仿学习到人类的轨迹?目前,行业内已经有不少公司,尝试让机器人大量观看学习人类的动作轨迹,让机器人模仿人类倒水、装东西、放东西、通过复杂路面,或者模仿人类跳海藻舞时的手臂波浪状动作。△多指机器人通过模仿学习来习得人类动作,图片来源:CSDN美国加州大学伯克利分校团队的《Humanoid
Locomotion as Next Token
Prediction(把人形机器人的运动作为下一个token去预测)》论文中,就将Transformer构架预测下一个token的原理,运用到机器人小脑的运动控制中,用27小时的行走数据训练机器人。结果显示,机器人最后不仅能够在从未训练过的路面上行走,甚至出现了倒退行走这一训练中从未出现过的动作。
△美国加州大学伯克利分校训练的Agility机器人在草坪上倒退行走,图片来源:Hybrid Robotics大模型让机器人长出脑子,只是人形机器人近期爆火的一大关键因素。在国内,另外一项重要原因在于,机器人硬件成本曲线的快速下降,给了机器人行业蓬勃发育的土壤。多位行业人士向《智能涌现》提到了一项共同的判断,人形机器人创业理应在中国发生,而不是大洋彼岸的硅谷——相比之下,中国不仅有更强大的机器人生产能力、也有机器人应用场景,需求供给都比硅谷更强势。一家人形机器人初创公司CEO向《智能涌现》举例,以机器人的电驱关节为例,单价已经从最初的小一万块钱,下降到如今一千块左右,降低了九成。机器人公司「宇树科技」在今年5月发布的G1人形机器人,售价9.9万起,更是将人形机器人的价格进一步下探。据“人形机器人研究院”公众号分析,宇树G1的硬件成本批量化生产不超过8万元,定价仍有利润空间。「优必选」一位技术人员向《智能涌现》表示,过去人形机器人之所以成本高,是因为专用零部件需要定制,产量低,关键零部件依赖国外供应商。但近年来,国内供应商加入,零部件出货量提升,拉低了价格。这形成了一种互为因果的循环:在中国做硬件相对简单、便宜,人形机器人公司更敢于尝试做硬件,市场需求量提高,进一步拉低硬件价格,又进一步降低入局的难度。一派理想,一派现实
一个有意思的现象是,如大模型的发展路径分化为理想派和现实派一样,AI机器人如今也大致分化为两派:理想派喜欢谈AI与具身智能,将人形机器人视为终极形态与最高理想;现实派则更看重AI机器人与商业应用场景的结合,讲究短期内的商业回报。理想派将人形形态贯穿始终,无论是从最初的To-E(To-Education,客户是高校科研院所)、To-D(To-Developer,客户是开发者)的小批量量产阶段,还是到大B客户阶段,和To-C阶段。至于早期怎么养活自己,理想派不愁。人形机器人公司「加速进化」创始人程昊认为,最理想的养活自己方式是,产品形态一直保持通用人形,不需要中途去做垂类专用机,商业规模上慢慢扩大。“我们只需要锻炼出几百台、上千台的量产能力就行了,积累期先卖给科研机构。像苹果手机(相比于MP3、相机等专用机,苹果手机是通用机)最早卖到中国时,有谁买?都是学校在买。个人PC也是先卖发烧友、高校、华尔街。先把这一块吃下,让很多人学会用。”△「加速进化」公司的人形机器人,图片来源:加速进化现实派则更看重机器人的商业应用场景,他们不一定将人形视为机器人的终极形态,机器人具体的形态可能会根据具体的场景做出调整——它可能是一只足够聪明的机械手,或者是一台脚部是轮子、但带有双臂,能在工厂里快速滑行的机械车。正因为AI大模型带火的这一波机器人,具有AI大脑,但未必要装在人形的身体里,所以也有观点认为,这波有泛化智能的机器人更合适的表述是“AI机器人”,只是“人形”对大众的情感冲击力更强。智能机器人公司「星海图」的策略是,“先不怼人形”。「星海图」CEO高继扬在一次公开采访中提及,机器人现在面对的环境是人类改造过的社会环境,人形机器人对于高度特化的任务岗位未必是最合适的。在他看来,具身智能的未来应该是 “一脑多形” 的,关键是要选好商业闭环场景,当本体足够便宜,再降低数据获取成本,数据推动算法进入规模化阶段。《智能涌现》发现,在地理分布上,以北京为代表的北方公司,理想派偏多;而以珠三角为代表的南方,现实派偏多。这与行业人员的出身背景、投资方的偏好有关。北方的项目大多孵化于高校(清华、北大、中科大、北航、北理工等等),从高校实验室出发,再延伸到产业界。通用人形机器人这种“大而全”的理想,一般更容易孵化于高校实验室。“北京投资人更喜欢投人形(机器人),喜欢大而全的故事,无论是投AI的一波,还是当年投软件的一波,都是这个风格”,一位FA向《智能涌现》表示。投资偏向,也和资金来源有直接关系。在北方,政府侧的资金来源占比更高,对于科研战略级、离落地有距离的人形机器人,会更有耐心,在创业公司能养活自己之前给予更长的时间。初心资本合伙人许旸洋向《智能涌现》表示,人形机器人赛道有一些国家政策侧的支持,资金会保持一定的容量、持续性和容错的空间。“人形机器人涉及到产线厂房,跟政府的招商引资、税收、人才息息相关。即使人形机器人行业需要探索的时间,但只要公司能持续地有进展,无论是泛化能力还是单点的性能,只要最后效果层面有突破,我预计(资金持续)至少三年左右是有的。”一位长期驻扎深圳的FA告诉《智能涌现》,驻扎华南的投资人风格更现实主义,“无论你是物流机器人还是家居清洁机器人,整体都离应用近一点,不至于融了20亿,啥都见不着。对于一项新技术,今年的一级市场也不会给不能商业化的公司太长的容忍周期……要在一两年之内看得到你成还是不成。”在以珠三角为代表的南方,垂类机器人(如仓储物流机器人、工业机器人、送餐机器人、清洁机器人等)占比更高。在大模型风潮之后,这些公司纷纷试图在原有机器人形态的基础上,加上一个聪明的AI大脑。比如,一种思路是,针对仓储物流的场景,用轮式+双臂的类人形机器人,让手臂拥有跟人一样的操作空间,但用的是最廉价、最稳定的底盘,可以根据货架高度来升降。在珠三角和长三角,传统场景下的工业机器人、商业服务机器人,供应链很成熟,毛利已经压得极低。在工业机器人中,拓斯达、埃夫特、迈赫股份等下游集成商的利润被上游一步步压缩;对商用服务机器人来说,据《Equal
Ocean》报道,国内市场的毛利率在30%-40%,商用服务机器人公司”F4”云迹、普渡、擎朗、高仙,都还处在亏损状态。传统机器人毛利低,对成本敏感,那么对于加上AI大脑的成本、收益、使用安全性的考虑,更要精打细算。一家深圳的除雪机器人向《智能涌现》表示,他们新一代产品加入了AI大模型功能,但当下只用了自然语言交互功能,但未采用大模型对机器人进行视觉训练(例如泛化能力能让机器人识别出仿真的假草),以免大模型的幻觉带来安全隐患。在资本方面,“现实派”AI机器人落地,得到了不少产业资本的支持,这些产业资本既是股东,也是客户,提供了工厂的落地应用场景,场景数据又能反馈给机器人的AI算法。从总体上看,无论是理想派还是现实派,由AI大模型引发的这一波AI机器人的浪潮,都非常吃学术资源。AI机器人赛道总体上处于从学界到业界的跨越期,几乎每个AI机器人团队背后都有自己的学术圈层。比如,清华大学背景的机器人团队,大多是单干模式,每个团队都有核心的学术骨干,彼此独立。一位FA称,清华叉院研究机器人的教授大多有自己的公司。而哈尔滨工业大学(深圳)背景的机器人团队,则偏向团体模式——学校和企业之间深度合作绑定。某机器人创业公司CEO告诉36氪,哈工大除了入股外,会在机器人资源、产业融资等方面提供支持,学校和企业同时把盘子做大。阻挡人形机器人落地的两座大山
不过,人形机器人看起来很美好,但是距离落地还有很远。目前有两大难题需要跨越。AI大语言模型需要投喂关于人类世界的海量知识,才能涌现智能。同理,机器人大脑也需要投喂关于现实物理世界的海量数据,才能训练得聪明。ChatGPT的出世,是因为互联网用20年的时间把人类的知识数字化了,但对于具身智能行业,物理世界的数字化才刚刚开始。相比于AI大模型的训练数据(文字、图像、视频等数据库),具身智能的训练数据需要人类各种场景下的行为数据(比如开门、做饭等等)、以及人类所处的物理世界的场景数据。而对于具身智能创业公司来说,如果数据采集成本很高,便很难收支平衡。一些机器人公司也在尝试解决数据来源问题——主动与产业界合作,获取场景下的数据。比如,特斯拉机器人擎天柱Optimus,使用的便是与特斯拉全自动驾驶FSD相同的计算机硬件,Optimus的AI大脑也与FSD 非常相似,包含相同的计算机视觉系统。国内一家具身智能公司的技术研发人员向《智能涌现》推测,FSD的信息来源是用车载摄像头的路况信息来训练的视觉模型,而Optimus则将FSD的视觉模型拿来作为机器人的基座模型,再用机器人的场景(如搬运作业)数据,来对基座模型进行训练微调。由于数据难获取,具身智能的Scaling law(规模定律,指当模型的参数量、数据集大小、计算量增加,模型的性能会提高)还在早期阶段,还没有达到涌现。一家机器人大脑公司的技术人员告诉《智能涌现》,国内还没有看到哪家公司的机器人大脑是能达到涌现阶段的。而对于获取数据难题,国内不同团队目前分化出了不同的解决路径。通用机器人公司「银河通用」的创始人王鹤,提倡使用仿真合成数据(即利用模拟软件,将目标的现实数据复制到虚拟环境中)。其团队利用合成数据训练的机器人,对任意材质和形状的堆叠物体能达到95%的抓取成功率。△利用仿真合成环境来训练机器人行走,图片来源:Dynaimc Robotics Laboratory不过,这种解决思路并不能得到所有机器人公司的效仿。「星海图」CEO高继扬则认为,具身智能的第一阶段一定是,真实数据加上模仿学习,真实数据需要从现实世界获取,不能靠虚拟合成。数据获取的纷争尚未停歇,人形机器人落地的第二个难题由此产生——机器人的泛化能力还达不到要求。尽管谷歌RT-2(Robotic Transformer 2)具身多模态大模型已经足够惊艳世界,但距离实际应用还有一定的距离。谷歌此前曾经通过十几万条数据,让机器人通过模仿学习的方式,学习数据包中的行为轨迹,进而举一反三,习得语义和视觉上的泛化能力。从谷歌的视频可以看出,他们让机器人把那个“快要掉到地上的袋子抓回去”,或者抓起一个机器人从未见过的饮料瓶。△谷歌实验室的机器人夹起快要掉落的袋子,图片来源:Transhuman Videos但事实证明,即使强如谷歌,他们机器人的泛化性还不够。因为谷歌的十几万条数据的物理场景很单一,都是在同一个厨房、同一个桌面高度上采集的,而一旦机器人换一个场景,甚至是换一个桌面高度,机器人的动作便可能面临举一反三失败。一个例子可以说明,高泛化能力的机器人多么聪明有趣——当机器人接受到一个“把螺栓拧到几个洞去”的任务,如果上一环节拧偏了,机器人也会根据实际情况,修正自己的行为,去适应上一环节的偏差。正如「银河通用」创始人王鹤此前表示,机器人在车厂、工厂应用落地的障碍不在于操作精度、移动精度,而在于泛化能力。高泛化性,是当下机器人必须提升、攻克的关键点。不过,要解决这些问题,产业界还有很长的路要走,这并不意味着人形机器人的落地就停滞不前。机器人的落地,其实也可以“抄近道”。大部分人形机器人从业者认为,相比于AI大模型要达到GPT3.5或者GPT4的通用能力才具有商业价值,但对于具身智能,虽然机器人大脑还没达到“涌现”,匹配合适的身体形态和场景,就能产生商业价值。机器人的泛化能力也分等级:初等泛化能力的机械臂,只能能识别更换形状后的零件;更高泛化能力的机械臂,即使在产线上的生产品类发生变化后(打个比方,从梭织牛仔到针织外套),机械臂也能自动适配。多位行业人士向《智能涌现》表示,尽管初等泛化能力的AI机器人还没有顶尖聪明,但也有望在短期内落地。一家具身机器人大脑研发公司表示,他们有望在2024年年底前落地有基础泛化能力的具身机器人大脑产品,可以用到打磨、抛光、搬运、点胶等环节。借助股东的产业资源和场景,实现商业闭环。至于机器人大脑的价格,其CEO表示,以协作机器人为例,相比于15-20万元的硬件本体,具身机器人大脑的价格只是零头。
初心资本合伙人许旸洋则判断,更高泛化能力的AI机器人(例如更换生产品类,也可以自适应),需要至少两年左右落地。一些业内人士,也明确了AI机器人商业化落地的关键点。对于大B端市场,机器人界泰斗王田苗表示,对机器人创业公司来说,第一个要素是场景背后的资源——大厂不仅能投钱,还能提供经验和数据。比如,小米汽车、美团物流都能为机器人提供场景数据。第二要有产品技术;第三要能整合资源、融资,“不然(机器人公司)融到5亿、10亿之后,就融不下去了”。在他看来,同时具备两到三个要素才能成为行业头部,若只具备一个就只能成为一般的创业项目。对于小体量的科研高校市场,要占据渠道优势。可以明确的是,人形机器人在未来很长一段时间是To-E(客户是高校、科研院所)的小批量量产阶段,并没有B端市场那么大,因此要把握好渠道,争取先发优势。以「宇树科技」为例,宇树早在2017年四足机器狗阶段,就把产品卖给了很多高校。「宇树科技」的早期投资人、初心资本合伙人许旸洋到美国走访发现,斯坦福、伯克利等高校的机器人实验室,几乎人手一台宇树的机器狗。有了前一个阶段的渠道铺垫,到如今的人形机器人阶段,宇树再卖给已有的高校客户就很顺畅,因为有天然的渠道优势和品牌信任。“对于高校市场,如果现在才开始去做的话,肉眼可见肯定没有优势。”许旸洋表示。正如黄仁勋在不久前的台北国际电脑展上所说,“机器人时代已经来临,具身智能是人工智能的下一波浪潮。”人形机器人的落地尽管将会有曲折,但行业在一步步蜿蜒前进着。